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摘 要 : 针对 传统 关联 规则 挖掘 算法 无 法 高 效 且 准确 地 挖 据 出 隐 仿 于 用 户 操 作 记 录 中 的 时 序 关联 操控 习惯 ， 提 出 一 
种 基于 FP-Growth 的 智能 家 居 用 户 时 序 关联 操控 习惯 挖 气 算法 。 该 算法 分 为 三 个 阶段 , 分别 基 于 用 户 操控 动作 森林 、 
改进 的 FP-Growth 算法 和 一 种 时 间 约 束 规则 进行 事务 集 的 生成 、 时 序 频 繁 项 集 的 生成 以 及 最 终 时 序 关联 操控 习惯 的 
生成 。 最 后 ， 使 用 真实 用 户 操控 记录 进行 对 比 实验 ， 结 果 表 明 该 算法 能 提高 生成 事务 集 的 效率 ， 并 能 更 准确 地 发 现 
用 户 操 控 家 居 设 备 的 时 序 关 联 习 惯 。 
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FP-Growth-based user temporal association control habits mining method for smart home 


Liang Tiankaia, Zeng Bi’, Liu Jiangit 
(a. School of Computer, b. School of Automation, Guangdong University of Technology, Guangzhou 510006, China) 


Abstract: Concern the problem that the traditional association analysis algorithms cannot efficiently and accurately mine 
the user's potential temporal association control habits which are implied in the user's operation records, this paper proposed 
a novel user temporal association control habits mining method based on FP-Growth. This method includes three stages: to 
generate the transaction set, the temporal frequent item set, and the final temporal association control habits via the user 
operation-action forest, the improved FP-Growth algorithm and a time constraint rule. Finally, the comparative experiments 
by using the real user control records show that this method can improve the efficiency of transaction set generation and can 
more accurately discover the user’s temporal association habits of smart home devices. 
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站 ”到 告 EE 家居 设 备 的 各 种 操控 行为 之 间 存 在 一 定 的 联 
系 和 规律 ， 若 能 将 这 种 潜在 的 关联 性 操控 习惯 从 用 户 的 历史 
随 着 物 联网 技术 、 计 算 机 网 络 技术 以 及 数据 挖掘 技术 的 操控 记录 中 识别 出 来 ， 并 利用 其 进一步 开发 出 更 了 解 用 户 的 
跨越 式 发 展 ， 智 能 化 成 为 新 世纪 发 展 趋势 的 新 代名词 。 在 此 智能 家 居 系 统 ， 有 利于 智能 家 居 行 业 的 发 展 更 趋向 于 智能 家 
大 背景 下 ， 智 能 家 居 的 发 展 也 呈现 出 突 发 猛 进 的 态势 帅 。 智 居 系 统 的 最 高 层次 智能 化 水 平 59。 
能 家 居 系 统 是 以 个 人 家 居 空 间 为 主要 平台 ， 通 过 物 联网 技术 前 ， 国 内 外 学 者 对 用 户 的 关联 性 操控 习惯 的 挖掘 的 而 
将 家 居 设 备 连接 到 网 络 中 ， 实 现 家 居 设 备 的 远程 操控 ， 构 建 究 已 有 一 定 的 成 果 。 例 如 ， 文 献 [9] 提 出 使 用 Apriori 关联 分 
高 效 的 住宅 设施 与 家 庭 日 程 事务 的 管理 系统 外。 智能 家 居 系 析 算 法 来 挖掘 隐 含 在 用 户 历史 交互 记录 中 的 关联 操控 习惯 。 
统 的 智能 化 水 平分 为 三 层 B1。 低 级 智能 化 水 平 只 实现 智能 家 但 该 方法 所 得 到 的 关联 性 操控 习惯 规则 ， 只 是 简单 表达 出 用 
居 设 备 的 简单 远程 操作 。 即 用 户 可 以 通过 移动 终端 将 控制 指 户 各 操控 动作 之 间 的 关系 ， 并 未 能 完整 表达 出 用 户 操控 动 
令 通 过 无 线 / 有 线 网 络 发 送 到 智能 家 居 系 统 的 控制 中 心 , 然后 之 间 的 时 间 特 性 ， 因 此 该 算法 的 学 习 能 力 比较 低下 。 相 似 自 
控制 中 心 通过 家 居 网 络 将 指令 下 发 给 相应 的 家 居 设 备 ， 最 终 还 有 文献 [10] 提 出 的 一 种 基于 假设 检验 的 关联 分 析 算 法 。 该 
实现 智能 家 居 设 备 的 远程 操作 由 ， 中 级 智能 化 水 平 则 了 算法 进一步 证 明 家 居 设 备 间 的 确 存 在 较 强 依赖 关系 且 能 可 被 
基于 环境 感知 的 家 居 设 备 触发 式 自动 化 控制 申 。 例 如 ， 用 户 有 效 挖掘 。 其 次 ， 为 了 提高 关联 分 析 算 法 对 混杂 数据 以 及 缺 
自 定义 规则 “ 当 室 内 温度 高 于 30 摄氏 度 时 , 帮 有 我 打开 空调 ”。 失 数 据 的 抗 噪 能 力 ，Cook 等 人 100 利用 情节 发 现 〈Episode 
此 后 ， 智 能 家 居 系 统 将 通过 连 入 到 家 居 网 络 的 温度 传感器 来 Discovery， 简 称 ED ) 算法 来 识别 用 户 的 操控 行为 中 隐 含 的 
感知 室内 环境 ， 当 室内 环境 的 变化 达到 触发 预定 规则 的 阔 值 关联 关系 ， 一 定 程度 上 提高 了 算法 处 理 大 规模 混杂 数据 的 能 
对,， 即 室内 温度 高 于 30 摄氏 度 时 , 系统 将 自动 进行 相应 的 操 力 。 学 者 们 为 了 进一步 提高 算法 对 大 规模 数据 的 处 理 能 力 ， 
控 ， 即 打开 空调 ， 最 高 级 别 的 智能 化 水 平 则 要 求 智能 家 居 系 文献 [12] 基 于 ART (adaptive resonance theory) 网 络 提 出 一 种 
统 具 备 学 习 能 力 ， 能 从 大 量 用 户 操控 记录 中 学 习 到 用 户 对 家 双 层 ART1 模式 分 类 方法 ， 对 用 户 的 操控 动作 之 间 的 关系 建 
居 设 备 的 操控 习惯 ， 并 代替 用 户 自主 地 在 适当 条 件 下 操控 家 立 数学 模型 ， 同 时 利用 云端 仓库 对 用 户 操控 记录 数据 进行 存 
居 设 备 ， 实 现 家 居 设 备 真正 意义 的 智能 操作 [9。 储 ， 有 效 解决 了 本 地 存储 资源 无 法 适应 大 规模 用 户 操 控 数 据 
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录用 定稿 梁 天 恺 ， 等 : 基于 FP-growth 的 智能 家 居 用 户 时 序 关联 操控 习惯 挖 气 方 法 第 37 卷 第 2 期 
的 缺点 。 虽 然 上 述 方法 对 智能 家 居 应 用 的 推广 以 及 智能 家 居 d) 依 据 时 序 频 繁 项 集 形成 满足 最 小 置信 度 要 求 的 时 序 候选 关联 规则 
系统 的 智能 化 水 平 的 提高 具有 较 大 的 意义 和 启发 ， 然 而 上 述 e) 添 加 时 间 约 束 规则 ， 进 行 时 序 候 选 关联 规则 筛选 ， 通 过 规则 的 筛 
的 算法 依旧 无 法 保证 所 挖掘 到 用 户 关联 操控 习惯 内 的 各 规则 选 的 时 序 候选 关联 规则 即 用 户 满足 时 间 约 束 为 ”分 钟 的 时 序 关 联 操 控 


子 项 之 间 存 在 时 序 性 以 及 强烈 的 时 间 关 联 性 ， 无 法 准确 挖掘 。 习惯 


出 用 户 》 让 关联 操控 习惯 。 人 
是 2 ”用 户 操控 动作 森林 与 事务 集 的 生成 


为 解决 上 述 问题 ， 本 文 提 出 一 种 基于 FP-Growth 算法 的 
时 序 关 联 规则 分 析 (temporal association analysis based on 的 历史 操控 记录 是 按 天 存放 的 ， 如 果 简 单 将 每 一 天 


FP-Growth， 简 称 TAABFPG) 算法 。TAABFPG 算法 提出 使 。” 的 记录 组 成 事务 ， 将 丢失 用 户 在 操控 智能 家 居 设 备 时 所 存在 
用 森林 的 方式 来 存储 用 户 操控 记录 和 生成 事务 集 ， 其 次 ,为 ” 的 部 分 关联 关系 ， 因 此 如 何 将 用 户 历 史 操 控 数 据 转 换 为 更 加 
了 准确 挖掘 出 用 户 潜在 的 具有 强烈 时 间 关 联 性 的 时 序 关联 操 ” ”合理 的 事务 集 显 得 尤为 重要 。 
控 习 惯 ， 还 提出 使 用 一 种 简单 但 有 效 的 约束 规则 。 最 后 ， 本 针对 用 户 操控 记录 ， 本 文 认 为 操作 时 间 的 间隔 超过 30 


I 


文 使 用 由 智能 家 居 企 业 所 提供 的 真实 用 户 数据 与 3 种 经 典 且 分 钟 〈《 忽 略 操作 日 期 ) 的 同一 用 户 操控 动作 往往 关联 着 不 同 
常见 的 关联 分 析 算 法 中 进行 了 对 比 实验 ， 证 明 本 算法 的 有 效 的 操控 动作 ， 若 不 加 以 区 分 就 会 产生 错误 的 关联 操控 习惯 。 
性 与 性 能 的 优越 性 。 例如 : 若 某 一 用 户 在 早上 8 点 喜欢 打开 烹饪 机 准备 他 的 早餐 ， 

ee 接着 就 会 打开 收音 机 听 一 下 电台 新 闻 早报 ;而 到 了 上 晚上 6 点 ， 
1 ”算法 框架 


该 用 户 也 会 习惯 性 地 打开 亮 饪 机 准备 晚餐 ， 而 接着 就 是 打开 

本 文 所 提出 的 基于 FP-Growth 的 智能 家 居 用 户 关联 操控 ”电视 机 ， 一 边 看 着 他 喜欢 的 电视 剧 一 边 享用 他 的 晚餐 。 在 此 
习惯 挖掘 〈TAABFPG) 算法 可 分 为 三 个 阶段 : 事务 集 生 成 、 ”背景 下 ， 针 对 该 名 用 户 应 该 存在 两 条 关联 规则 : {早上 8 点 : 
时 序 频 繁 项 集 生成 以 及 最 终 的 用 户 关联 操控 习惯 的 生成 ， 算 ”打开 毫 饪 机 瑟 打 开 收音 机 } 以 及 {晚上 6 点 :打开 毫 饪 机 王 > 
法 流程 如 图 1 所 示 ， 其 具体 执行 步骤 如 下 : 打开 电视 机 }, 如 果 不 对 用 户 不 同时 刻 的 同一 操控 加 以 区 分 的 
a) 事 务 集 的 生成 : 将 用 户 历 史 操控 数据 进行 动作 化 处 理 ， ” 话 ， 就 会 产生 关联 操控 习惯 的 漂移 ， 即 算法 计算 出 打开 襄 饪 
并 生成 用 户 操控 动作 森林 ， 最 后 通过 遍历 森林 得 到 事务 集 。 机 的 平均 操作 时 间 是 13:00， 在 时 间 维 度 上 远离 早上 8 点 附 
b) 时 序 频繁 项 集 的 生成 : 本 文 基于 FP-Growth 算法 ， 对  ” 近 打 开 电 视 机 以 及 晚上 6 点 附近 打开 电视 机 的 操控 动作 ， 造 


| 


FP 树 生成 过 程 添加 了 时 序 化 处 理 的 改进 ,使 其 可 以 产生 满足 ”成 两 个 关联 操控 习惯 的 丢失 。 因 此 ， 需 要 将 操作 时 间 间 隔 已 
最 小 支持 度 的 时 序 频繁 项 集 。 经 超过 30 分 钟 的 早上 8 点 以 及 晚上 6 点 打开 烹饪 机 的 操控 动 
c) 用 户 关联 操控 习惯 的 生成 ， 此 步 又 包括 时 序 候选 关联 。 作 认 定 为 两 个 不 同 的 用 户 操控 动作 ， 则 能 避免 上 述 问题 。 
规则 的 生成 以 及 最 终 的 用 户 操控 习惯 的 筛选 两 部 分 。 首 先 ， 此 次 ， 为 了 高 效 地 依据 用户 操控 记录 生成 事务 集 ， 本 文 
依据 频繁 项 集 生成 满足 最 小 置信 度 的 时 序 候选 关联 规则 ， 是 出 使 用 森林 的 方式 存储 用 户 操控 记录 ， 称 为 用 户 操控 动作 
计算 候选 关联 规则 时 间 约 束 因子 ， 进 而 通过 时 间 约 束 规则 挖 森林， 并 给 出 相应 的 森林 的 遍历 方法 以 高 效 生成 事务 集 ， 具 

掘 出 用 户 具有 时 间 约束 的 时 序 关 联 操控 习惯 。 本 如 下 : 
a) 构 建 一 个 空 的 森林 ， 并 按照 天 遍历 用 户 n 天 的 历史 操 
且 户 历史 加 把 记 溃 沁 | 控 记录 , 每 一 天 生成 一 棵 子 树 , 最 终 形成 含有 n 棵 树 的 森林 。 
b) 每 天 的 子 树 的 生成 : 构建 一 棵 带 有 一 个 空 节点 的 子 树 ， 
生成 用 户 操控 动作 森林 | 然后 按 动 作 生 成 时 间 的 先后 顺序 遍历 用 户 操控 记录 的 操控 动 
| 作 ， 并 将 该 动作 插入 到 根 节点 下 从 右 往 左 第 一 个 未 包含 该 相 
让 成 事务 集 同 节点 的 分 支 的 叶子 节点 后 ， 若 根 节点 下 的 所 有 分 支 均 包含 
最 小 支持 度 一 一 一 一 革 该 动作 ， 则 将 该 操控 动作 存储 为 根 节点 的 右 孩子 节点 
生成 时 序 频 繁 项 集 | c) 分 别 遍历 森林 里 的 动作 子 树 ， 生 成 事务 集 : 将 森林 中 
最 小 置信 度 中 的 各 子 树 的 根 节点 下 每 一 个 分 支 对 应 一 个 事务 ， 最 终 多 棵 子 
[和 芭 珊 克 树 的 多 个 分 支 所 产生 的 多 个 事务 组 成 针对 该 用 户 操控 记录 的 
时 间 约 束 规则 一 一 一 一 时 事务 集 。 


| 从 理论 角度 出 发 ， 本 文 所 提出 的 通过 构建 用 户 操 控 动 作 


i] 户 关 联 操控 习惯 


—_— 


森林 的 方式 来 存储 并 生成 事务 集 的 时 间 复 杂 度 优 于 传统 的 顺 
图 1 TAABFPG 算法 流程 框图 序 表 存 储 结构 ， 证 明 如 下 : 

Fig.1 Schematic diagram of TAABFPG algorithm 段 设 现 有 某 用 户 的 m 天 所 产生 的 n 条 用 户 记 录 : 
TAABFPG 算法 流程 描述 如 下 : 如 果 使 用 传统 的 顺序 表 的 存储 方式 ， 需 要 遍历 顺序 表 的 
输入 : min(supp): 规则 的 最 小 支持 度 ， 所 有 元 素 ， 如 果 该 元 素 不 存在 在 一 构建 的 事务 列表 集合 中 则 
min(con 有 : 规则 的 最 小 置信 度 ， 将 其 尾 揪 到 最 近 一 个 不 同 的 动作 所 在 的 事务 列表 ， 和 否则 将 以 


:规则 子 项 之 间 的 时 间 约 束 系数 (单位 :分 钟 ) 区 
et 其 为 表 头 新 建 一 个 事务 列表 。 其 时 间 复 杂 度 为 o(n”) 级 别 031。 
dataset: 用 户 操控 记录 。 


输出 : 具有 时 间 约束 的 时 序 关联 操控 习惯 如 果 使 用 森林 的 方式 生成 事务 集 ， 则 相当 于 构建 含有 m 
a 根 据 用 户 操控 记录 的 生成 时 间 来 构建 含有 若干 棵 子 树 的 用 户 操控 棵 子 树 合 计 n 个 节点 的 用 户 操 控 动 作 森 林 的 时 间 复 杂 度 为 


动作 森林 olnlogn) ， 而 遍历 这 个 森林 的 时 间 复 杂 度 为 o(nlogn) ， 合 计 
b) 对 用 户 操控 动作 森林 进行 遍历 并 生成 事务 集 时 间 复 杂 度 为 2o(0zlogz) ， 即 olnlogn) 级 别 史 。 因 此 ， 从 理 


co) 通 过 改进 的 FP-Growth 算法 生成 若干 满足 最 小 支持 度 要 求 的 时 序 论 角 度 可 证 明 森 林 的 处 理 方 式 在 效率 上 由 于 传统 的 顺序 表 方 
频繁 项 集 式 。 其 次 ， 在 后 续 的 实验 部 分 还 将 设 定 相 应 的 验证 实验 以 证 
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等 : 基于 FP-growth 的 智 


3 


时 序 频 繁 项 集 的 生成 


在 关联 分 析 中 ， 频 繁 项 集 代表 的 是 一 个 规则 出 现 的 频率 
， 即 该 规则 频繁 发 生 。 通 过 计算 规则 的 支持 度 可 以 体现 
规则 在 事务 集中 所 占有 的 比例 。 定 义 规则 {X 一 站} 的 六 
(support) 为 事务 集 D 中 ， 同 时 包含 用 户 操 控 动作 XX 和 YY 
为 动作 XY) 的 事务 的 百分比 ， 即 概率 中 。 其 中 | 代表 
用 户 操控 动作 x 事务 的 个 数 ，len(D) 表 示 事 务 集中 事务 


[15], 


sup(XY)= LL = P(XY) 


en(D) (1 


本 算法 提出 基于 FP-Growth 算法 进行 频繁 项 集 的 生成 。 
算法 生成 频繁 项 集 主要 包括 FP 树 的 构建 以 及 FP 
挖掘 两 大 部 分 09。 然 而 传统 的 FP-Growth 算法 在 FP- 树 
掘 过 程 中 仅 利用 支持 度 作 为 项 头 表 的 构建 的 依据 ， 因 此 
生 的 频繁 项 缺乏 时 序 性 ， 不 满足 智能 家 居 推 荐 系统 要 求 


挖掘 
决 上 
加 时 


= 


务 集 : 


用 户 具 有 时 间 约 束 的 时 序 关联 操控 规则 的 需求 。 为 了 解 
述 问 题 ， 本 文 对 FP- 树 的 挖掘 过 程 进行 了 改进 ， 通 过 添 
序 化 操作 保证 所 生成 的 频繁 项 集 满足 时 序 的 要 求 。 

为 了 更 加 直观 地 说 明 频 繁 项 集 的 生成 过 程 ， 假 设 存 在 事 
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的 层次 插入 。 其 中 FP 树 的 节点 定义 为 (%,%) ,其 中 x 为 项 头 


表 的 元 素 ，n 为 该 项 头 到 目前 为 止 在 该 路 径 上 出 现 的 次 数 
即 计数 位 。 
表 2 事务 集 t 的 重 构 


Table 2 Reconstruction of transaction set T 


》 


删除 无 效 项 头 后 


事务 ID 事务 详情 的 事务 排序 后 的 事务 

1 A,E,C,B A,E,C A,C,E 

2 A,C,D,E A,CE A,C,E 

3 A,C,G A,C,G A,C,G 

4 E,EH E E 

5 A,C,D,G A,C,G A,C,G 

6 A,C,E,G A,C,E,G A,C,E,G 
7 A,E,F AE AE 

8 B,G G G 

9 A,C A,C A,C 

以 假设 的 事务 了 举例 ， 首 先 构 建 一 个 空 的 根 节 点 ， 并 将 


由 


山 | 


诽 


T= 


{{A,E,C,B },{ A,C,D,E },{ A,C,G },{ E,F,H },{ A,C,D,G}, 


{ A,C,E,G},{ A,E,F },{ B,G},{ A,C }}。 


3.1 FP 树 的 构建 

构建 FP 树 主要 包括 项 头 表 的 构建 、 事 务 集 的 重 构 以 及 
FP 树 的 生成 三 大 步骤 09， 有 具体 流程 如 下 

a) 项 头 表 的 构建 。 依 据 事务 集 的 项 头 集 三 {A,B,.…}， 计 
算 对 应 的 项 头 的 支持 度 (sup(z),xzsZ) ， 然 后 筛选 出 满足 最 小 
支持 度 (min(supp)) 要 求 的 项 头 并 对 其 进行 排序 后 得 到 的 该 事 
务 集 的 项 头 表 ， 项 头 表 形 如 : 


支持 


{(D,sup(D)),((A,sup(A)),...} 
且 min(sup p) < sup(A) < sup(D) 
以 假设 的 事务 集 工 举例 , 针对 事务 工 所 生成 的 满足 最 小 
度 为 10% 的 项 表 头 如 表 1 所 示 。 
表 1 事务 集 t 的 项 头 表 


Table ] Headers table of transaction set T 
事务 集 T 的 项 头 表 
事务 ID 事务 详情 初始 满足 最 小 支持 排序 后 的 最 
项 头 表 度 的 项 头 表 ” 终 项 头 表 
1 A,E,C,B A:24% A:24% A:24% 
2 A,C,D,E B:7% C:21% C:21% 
3 A,C,G C:21% E:17% E:17% 
4 E,F,H D:7% G:14% G:14% 
3 A,C,D,G E:17% 
6 A,C,E,G F: 7% 
了 A,E,F G:14% 
8 B,G H: 3% 
9 A,C 


b) 事 务 集 的 重 构 。 依 据 处 理 后 的 项 头 表 ， 将 各 事务 中 不 


存在 


于 项 头 表 中 的 的 元 素 进 行 删除 ， 并 对 其 按照 项 头 表 的 顺 


3.2 FP 树 的 挖掘 


pa 
\ NuULL ) NULL | 
a Ne 时 _ 
( A:1 | (A:3 ) 
([C:1) LU C:3 ) 
本 Rs 一 
六 \ (GC.1) 
a Ry 
vy | 
(a) 插 入 事务 1 后 的 FP 树 ”(b) 插 入 事务 2 后 的 FP 树 


2 事务 插入 到 全 树 方式 示意 图 


Fig.2 Schematic diagram of inserting transaction to FP tree 


NULL | 
fe a 
[A:7| (E11) ( G:1) 
人 人 
pen 3 
( C:6 | ( E:1 1 
入 -人 We 
RR 
(E:3 | (G: 
ss & 
FN 
1G:1 ) 
NU 


图 3 事务 集 t 的 人 名 树 


Fig.3 FP tree of transaction set T 


通过 对 生成 的 FP 树 进行 


事务 1 插入 到 FP 树 中 ， 生 成 如 图 2(a) 所 示 的 FP 树 。 接 着 将 
和 务 2 插入 到 FP 树 中 ， 生 成 如 图 2(b) 所 示 的 FP 树 。 依 此 类 
， 生 成 最 终 的 FP 树 如 图 3 所 示 。 


多 气 ， 可 以 得 到 相应 的 符合 最 


小 支持 度 要 求 的 频繁 项 集 。 然 而 传统 的 FP-Growth 算法 在 控 
FP 树 过 程 中 仅仅 利用 支持 度 作 为 处 理 的 依据 ， 无 法 产生 


掘 
中 
山 


序 排 序 。 以 假设 的 事务 了 举例 , 重 构 后 的 事务 集 如 表 2 所 示 。 
oFP 树 的 生成 。 依 据 处 理 后 的 事务 集 按照 其 顺序 进行 树 


的 需要 。 为 了 


时 序 的 频繁 项 集 ， 不 能 满足 智能 家 上 有 具 用 户 时 序 关 联 操控 挖 提 
解决 上 述 问 题 ， 本 算法 提出 一 种 经 过 时 序 化 处 
理 改进 的 FP 树 挖掘 算法 ， 以 挖掘 出 时 序 的 频繁 项 集 ， 有 具体 
步骤 如 下 : 


a) 依 照 项 头 表 的 先后 顺序 ， 从 后 往 前 逆序 遍历 项 涉 x， 


四 


201812.00113v1 


hinaXiv: 


C 


录用 定稿 梁 天 恺 ， 等 : 


获得 其 对 应 的 条 件 模式 基 : 按 FP 树 的 层次 
出 发 遍历 到 相应 的 项 头 节 点 ， 并 更 改 所 经 过 


ms 。 最 后 得 到 其 相应 的 条 件 模式 基 ， 形 式 为 


结构 ， 从 根 节点 
的 节点 的 计数 位 


E.={[(A,n),ta),[(B, ns), fs], [Xn ),L]} 


其 中 忆 为 元 素 〈 即 用 户 操作 动作 ) x 的 平均 操作 时 间 (忽略 


操作 日 期 ) 。 

b) 计 算 条 件 模式 基 的 中 除 x 的 其 他 元 素 的 支持 度 ， 并 将 
不 满足 最 小 支持 度 要 求 的 元 素 进 行 删除 ; 
c) 将 处 理 后 的 条 件 模式 基 的 元 素 进行 时 序 化 操作 ， 最 终 
区 成 时 序 条 件 模式 基 ， 其 格式 为 : 


E,={[(A,n),tal,[(B, ns),tsl,...},ta <ts 


dd) 按照 时 序 条 件 模 式 基 的 元 素 顺序 进行 组 合 ， 
干 个 长 度 大 于 1 包含 x 的 频繁 项 。 

e) 和 迭代 重复 ajp)， 直 到 所 有 项 头 均 被 遍历 为 止 为 止 ， 得 
到 时 序 频繁 项 集 

为 了 更 好 地 说 明生 成 频繁 项 集 的 过 程 ， 以 事务 集 T 锁 所 
产生 的 FP 树 (图 3 所 示 ) 进行 举例 说 明 : 

IJ) 针对 处 于 项 头 表 最 后 一 位 的 项 头 G， 产 生 其 条 件 模式 
基 : 


组 合成 若 


{[(4， 3),14],[(C, 3),tc],[(E, D,ts],[(G, 3),1c6]1} 


2) 计 算 Ec 中 除去 G 后 的 各 元 素 的 支持 度 : 


求解 得 到 {(A:43%),(C43%),(E,14%)}, 所 有 元 素 均 满足 最 
小 支持 度 10% 的 要 求 ， 均 予以 保留 。 

3) 对 经 过 筛选 的 条 件 模式 基 进 行 时 序 化 排序 : 

假设 2， 则 经 过 时 序 化 处 理 的 时 序 条 件 模式 基 为 : 


Ec Sr {[(4, 3),t4],[(E, 卫 ， te],[(C, 3),tc],[(G, 3),t6]} 


4) 针 对 时 序 条 件 模 式 基 的 元 素 按 照 原 顺序 进行 组 合 得 到 
针对 该 项 头 的 长 度 大 于 1 且 包 含 G 的 时 序 频 繁 项 集 P: 
{(A:3, E:1, G:3), (A:3, C:3, G:3), (E:1, C:3, G:3), 
(A:3, E:1, C:3, G:3),} 
5) 如 此 类 推 ， 直 至 所 有 项 头 均 被 壳 历 ， 生 成 所 有 符合 
小 支持 度 要 求 的 频繁 项 。 


4 ”用 户 时 序 关 联 操控 的 产生 


用 户 关 联 操 控 习 惯 的 生成 包括 时 序 候选 关联 规则 的 生成 
以 及 通过 对 时 序 候选 关联 规则 进行 筛选 后 得 到 最 终 的 用 户 操 
控 习 惯 两 大 部 分 。 首 先 ， 依 据 频繁 项 集 生成 满足 最 小 置信 度 
的 时 序 候选 关联 规则 ， 并 计算 候选 关联 规则 时 间 约 束 因 子 ， 
然后 通过 时 间 约 束 规 则 进行 时 序 候选 关联 规则 的 第 选 ， 挖 气 
出 用 户 具 有 时 间 约 束 的 时 序 关联 操控 习惯 。 
4.1 时 序 候选 关联 规则 的 生成 

关联 分 析 能 在 大 量 的 数据 中 寻找 数据 之 间 的 关系 ， 这 种 
关系 以 频繁 项 集 或 者 关联 规则 两 个 形式 存在 .而 在 本 算法 中 ， 
为 了 更 好 地 挖掘 出 符合 用 户 兴 趣 爱好 且 可 被 用 户 理 解 的 关联 
操控 习惯 ， 算 法 还 必须 通过 计算 各 频繁 项 集 的 置信 度 来 产生 
符合 最 小 置信 度 要 求 的 关联 规则 。 

规则 {X 一 >Y} 的 置信 度 (confidence) 是 频 事 务 集 工 中 用 户 
在 执行 动作 X 后 直接 或 间接 继续 执行 动作 Y 的 事务 ( 记 为 动 
作 YIX) 所 占 的 百分比 ， 即 条 件 概率 0 为 


基于 FP-growth 的 智能 家 


居 用 户 时 序 关联 操控 习惯 挖 气 方 法 


频繁 项 P={A:3,E:1,G:3}， 
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sup(XY) _ 
sup(X) 


P(XY) 


conf (X 一 了 ) = PX) 


=P(Y|X) 02) 


让 


以 第 3.2 节 针 对 项 头 G 生成 的 频繁 项 集 P 为 例 : 若 某 一 
可 以 看 出 “动作 A, E，G 同时 发 


生 ”* 的 事件 数 受 动作 巨 影响 为 1, 而 根据 频繁 项 06 知 “动作 A,E 


同时 发 生 ” 的 事件 数 为 4, 所 以 可 以 求 得 频繁 项 已 的 置信 度 为 
P(AEG) 1 
conf (已 ) = PC 旦 二 二 0.25 


如 果 将 最 小 置信 度 设 为 0.2， 则 可 认为 该 频繁 项 所 代表 


的 时 序 关 联 规则 {A 一 > 三 一 G} 是 有 效 的 , 则 将 其 认定 为 时 序 


候选 关联 规则 ， 


代表 该 规则 第 二 个 规则 子 项 的 平均 操控 时 间 和 第 一 


时 序 候选 关联 规则 的 格式 形 如 : 
{(4,t4) 闻 (tz) 说 (G,16),Af} ， 其 中 At 为 时 间 约 束 因子 ， 
个 规则 子 


项 的 平均 操控 时 间 的 平均 操控 时 间 差 ， 可 由 公式 〈3 ) 求解 : 


At=1 ,=t, -1 (3) 


4.2 ”时序 候选 关联 规则 的 过 滤 


传统 的 关联 规则 分 析 算法 在 生成 最 终 的 关联 规则 的 过 程 


中 仅 利用 置信 度 作为 筛选 标准 ， 因 此 所 产生 的 关联 规则 缺乏 


强烈 的 时 间 关 联 性 ，， 为 确保 最 终 产 生 的 关联 规则 的 各 规则 


子 项 之 间 存 在 强烈 的 时 间 关 联 性 ， 本 文 提 出 采用 一 种 基于 动 
态 时 间 约 束 因 子 At 的 动态 时 间 约束 规则 来 进行 时 序 候 选 关 


联 规则 筛选 的 方法 ， 


体 筛选 过 程 如 下 : 
a) 每 个 时 序 候选 关 联 规则 都 有 一 个 动态 因子 ， 如 果 该 规 


则 的 At 大 于 给 定 规则 子 项 之 间 的 时 间 约 束 系数 0 ， 则 该 规则 


被 认为 是 无 效 的 并 被 放弃 。 


选 规则 的 前 i 项 作为 最 终 的 规则 ， 
间 关 联 性 和 时 性 特征 。 


都 被 遍历 过 为 止 。 


时 序 候选 规则 均 被 遍历 过 为 止 。 


ee 
第 i 


否则 进行 下 一 步 筛选 操作 ; 
b) 如 果 该 规则 不 是 无 效 的 ， 则 使 用 式 (4) 计 算 该 规则 中 的 


个 规则 子 项 和 第 j 个 规则 子 项 的 平均 时 间 差 ; ， 假 设 该 


规则 及 个 规则 子 项 : 


fiji=t -tl<i<n-l,j=i+l (4) 


0c) 如 果 t ;>> tt， 则 在 第 i 项 后 断 开 规 则 链 


< 下 


保留 时 序 候 
以 确保 规则 具有 强烈 的 时 
否则 继续 遍历 下 一 对 规则 子 项 。 
d) 不 断 重 复 步 又 b)c)， 直 到 该 时 序 候选 规则 的 所 有 条 


e) 对 所 有 的 时 序 候选 关联 规则 重复 步骤 a)~d), 直至 所 有 


时 序 候 选 关联 规则 的 筛选 算法 流程 描述 如 下 : 
输入 : 5 时 序 候选 关联 规则 集 
6 :规则 子 项 之 间 的 时 间 约 束 系数 (单位 :min) 


具有 时 间 约 束 的 时 序 关联 规则 


1 蕊 


or 全部 上 时序 候选 关联 规则 都 被 遍历 过 一 


过 

1.f 次 do: 
2 if At< 0 then: 

3 

4 


for(i=1, j=2; j< 规 则 子 项 的 个 数 ;it+, j++) do: 
计算 该 规则 中 的 第 i 个 和 第 j 个 规则 子 


项 的 平均 时 间 差 妇 / 
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5 这 ti) > 1 then 
6 在 外 
1 end if 
8. end for 
9 end 这 
10. if At> O then 
11. 认定 该 规则 为 无 效 规则 并 i 
La, endif 


13. return 最 终 所 有 通过 筛选 的 规则 


5 ”实验 与 分 析 


5.1 实验 环境 


规则 链 ; break 


行 抛弃 处 理 


es 


本 文 的 验证 实验 的 运行 环境 是 
有 Intel R CoreIM i7-6770 主 频 为 3.40 GHz 的 CPU 的 个 人 计 
算 机 ,该 计算 机 运行 Windows 7 Professional 操作 系统 。 本 文 
的 所 有 算法 都 是 用 Python 编 


5.2 数据 集 


本 节 将 利用 由 茶 智 有 
进行 对 比 实验 。 经 过 删除 
共 包含 某 用 户 近 一 年 (2017 年 9 月 29 
合计 557 372 条 的 操控 记录 ， 涉 及 9 个 智 


根据 公司 的 数据 说 明 书 ， 


含有 11 个 具有 较 强 关联 性 的 时 序 关 联 


详情 如 表 3 所 示 。 


程 语言 编写 的 。 


IL 有 8 GB 内 存 


居 公 司 提供 的 真实 用 


日 至 


包含 缺失 值 的 记录 后 ， 实 验 数 据 
12018 年 8 月 3 日 
能 家 居 设 备 。 其 次 ， 
知 本 文 所 使 用 的 实验 数据 集 一 共 


操控 习惯 .实验 数 ] 


户 操控 记录 Eclat 算 涪 


运行 时 间 /S 
六 虽 


了 村 


恺 ， 等 : 基于 FP-growth 的 智能 家 居 用 户 时 序 关联 操控 习惯 挖 据 方法 
率 提高 了 约 33.72%, 实验 结果 训 


控 动 作 树 节 
段 所 需 的 事务 集 。 


司 4 两 种 


Fig.4 Runtime comparison of two tran 


事务 集 


成 方法 


mt 


其 次 ， 为 了 验 计 
户 潜在 的 时 序 关 联 操控 习惯 ， 


算法 进行 
标准 ，F1 


表 3 实验 数据 
Table 3 ”Experimental data set 
记录 总 数 557372 
设备 数量 9 
记录 开始 时 间 E9 月 29 日 15:46 
记录 结束 时 间 E8 月 3 日 15:22 
人 窗帘、 智能 插座 、 客 厅 大 灯 、 
设备 详情 前 门 、 后 门 、 红 外 转发 器 、 


1. 打 了 


2. 打 


3. 关 闭 空 j 


户 潜在 的 时 序 关 联 


风 肩 、 空 调 


开 客 厅 大 灯 一 打开 空调 制冷 
模式 


及 


T 


操控 习惯 6. 关 闭 


8. 打 


转 


发 器 


智能 插座 一 打开 大 灯 


智能 插座 一 打开 红外 

转发 器 
关闭 客厅 大 灯 一 关闭 前 门 
4. 关 闭 客 厅 窗 帘 王 打开 大 厅 为 
5. 关 闭 大 厅 灯 一 打开 客厅 窗帘 
闭 智能 插座 一 关闭 红外 


Fl 值 。 


规则 属于 用 


EE 复 实验 ， 并 使 用 
值 可 通过 式 〈5) 求解 08 。 


F122. Preeision: recall 


precision 


recall 


其 中 : |{relevent}| 代 表 用 
|{retrieved}| 代 表 算 法 说 挖 
习惯 ) 个 数 ，|{relevent} 站 { 


站 潜在 的 时 序 关 
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E 明 本 文 月 
高 效 地 4 


--- 用 户 操 控 动 作 森 林 方 式 


2 29 
实验 编号 


precision + recall 
其 中 : precision 代表 精准 率 ， 可 根 提 
表 召 回 率 可 根据 式 (7) 求解 。 


| {relevent} M {retrieved} | 


的 运行 时 间 折 线 民 
saction set generati 
算法 能 更 加 准确 地 挖掘 出 用 
使 用 传统 Apriori 算法 、 传 统 
、 传 统 FP-Growth 算法 以 及 本 文 提出 的 TAABFPG 
Fl 值 作为 算法 性 能 的 最 终 记 


| {retrieved} | 


| {relevent} M{retrieved} 


| {relevent} | 
户 潜在 的 时 序 
昌 到 的 规则 《 
7etrievedj| 代 表 算 法 说 控 ] 
居 习 惯 的 有 效 规 
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[提出 的 基于 用 户 
成 关联 规则 分 析 阶 


操 


on methods 


F 价 


(5) 


居 式 (6) 求解 ，recall 代 


(6) 


(7) 


关联 习惯 个 数 ; 


j 户 时 序 关 


则 个 数 。 


重复 实验 安排 如 下 : 设 定 最 小 支持 度 的 取 值 范 


0.65, 0.7, 0.75, 0.8, 0.85, 0.9}， 最 小 置信 度 的 了 
为 {0.6, 0.65, 0.7, 0.75, 0.8, 0.85, 0.9} ; 接着 按 
组 合 最 小 支持 度 和 最 小 置信 和 度 ， 共 形成 49 对 


制冷 模式 一 打 


关闭 空调 一 打开 风扇 


门 一 关闭 后 门 


空调 除湿 模式 人 


的 {最 小 支持 度 ， 最 小 
进行 49 次 设 定 有 不 同 
证 实验 。 

最 后 ， 针 对 验 说 
示 了 4 种 算法 各 自 


信 度 } 组 合 ， 然 后 分 别 
的 最 小 支持 度 和 最 小 


〖 序 不 习 


输出 的 平均 有 效 规 贝 
实验 结果 中 
直 使 用 平均 规则 数 以 及 了 


mn 全 
ur ar 


结果 进行 了 统计 与 分 析 。 表 4 
的 每 次 实验 输出 的 平均 规 由 
匀 精 准 率 、 习 
准 率 、 平 均 召 回 率 以 及 平均 Fl 
F 均 有 效 规 则 数 直 接 求解 得 出 。 
表 4 算法 的 各 项 指标 (均值 ) 


上 | 数 、 每 次 实验 


Table 4 Indicators comparision of four algorithms 


联 操 控 
届 到 的 


为 {0.6， 
同样 为 
E 复 随机 
如 {0.6，0.6} 
使 用 4 种 算法 
言 度 阔 值 的 验 


本 二 


展 


扇 一 关 打 开 空 调制 冷 模式 算法 规则 数 ”有效 规则 数 ”精准 率 Fl 值 
5.3 ”实验 结果 与 分 析 Apriori 15.468 72.686% 0.81863 
为 了 本 文 所 提出 的 寻 生成 方式 更 高 效 ， 基 于 用 户 操 ECLAT 15.462 72.701% 0.81864 
空 动 作 森 林 以 及 顺序 表 两 种 方式 各 进行 了 50 次 重复 生成 事 FP-Growth 15.469 72.694% 0.81874 
务 集 的 实验 ， 两 种 事务 集 方法 的 每 次 实验 的 运行 时 间 如 图 4 TAABFPG 13.449 84.579% 0.89394 
所 示 。 从 表 4 可 知 ，Apriori 算法 、Eclat 算法 以 及 FP-Growth 
最 后 ， 通 过 计算 得 E 成 事务 集 的 平均 运行 ”算法 的 各 项 指标 几乎 一 致 ， 可 以 认定 : 若 不 考虑 挖掘 效率 ， 


| 


时 间 分 别 为 : 用 户 操控 森林 方式 平均 耗 时 79.80998 秒 ， 传 统 


顺序 表 方 式 生成 同样 的 导 


F 均 需要 120.41024 秒 ， 效 


三 者 的 挖 


效果 基本 一 样 。 


精准 率 ， 说 明 本 算法 算法 既 能 ; 


而 本 文 提 出 的 算法 具有 最 高 的 
确 挖掘 到 潜在 的 正确 规则 又 


录用 定稿 梁 天 恺 ， 等 : 基于 FP-growth 的 智能 
不 会 产生 过 多 的 无 用 规则 。 其 次 ， 本 文 提出 的 算法 具有 最 高 
的 平均 Fi 值 , 说 明 本 算法 在 挖掘 用 户 时 序 关 联 操控 习惯 的 性 
能 上 优 于 经 典 且 常见 的 Apriori 算法 、Eclat 算法 以 及 
FP-Growth 算法 。 因 此 ， 实 验 结果 可 以 证 实 本 文 算法 具有 有 
效 性 并 有 具有 更 好 的 性 能 ， 能 更 加 准确 地 挖掘 到 用 户 潜在 的 


有 时 间 约 束 的 时 序 关 联 操控 习惯 。 


6 


结束 语 
为 满足 智能 家 居 系 统 


空气 上 


] 户 的 具有 时 间 约 束 的 时 序 关 


联 操控 习惯 的 需求 ， 本 文 基于 FP-Growth 算法 ， 结 合 数 据 结 


构 的 知识 ， 提 出 了 一 种 能 


有 效 根据 大 量 用 户 历 史 操控 数 : 


控 


昌 用 户 时 序 关 联 操控 习惯 的 关联 分 析 算 法 。 为 提高 事务 集 


的 生成 效率 ， 提 出 


种 基于 森林 的 数据 结构 存储 用 户 操控 记 


孙 ， 


统 关联 分 析 算 法 不 能 保证 说 挖掘 到 的 关 
存在 时 序 性 以 及 较 强 
间 约 束 规则 ， 
让 关 


见 上 


果 验 证 了 本 算法 的 n 自 


通过 遍历 森林 


的 方式 高 效 生成 事务 集 ; 其 次 ， 针 对 传 
闫 规则 的 规则 子 项 间 
时 间 关 联 性 的 问题 ， 提 出 一 种 有 效 的 时 
该 规则 中 通过 计算 动态 时 间 约 束 因 子 来 提高 用 
类 操控 分 析 算 法 的 精准 率 。 最 后 ， 本 文 还 选取 了 三 种 常 
的 关联 分 析 算 法 作为 基准 算法 做 了 多 次 重复 实验 ， 实 验 结 
能 大 大 提高 事务 集 的 生成 效率 ， 同 时 在 


关联 操控 习惯 方面 ， 有 更 优 的 性 能 。 
户 的 操控 习惯 可 能 会 受 外 部 环境 因素 影响 (如 


昌 用 户 时 月 
其 次 ，| 


| 


天 气 ) ， 
含 外 部 环境 因素 的 特征 ， 无 法 利用 外 部 环 
操控 习惯 的 挖 
习惯 发 生 显著 性 变化 的 多 


包 


i 


葛 
而 本 文 的 验证 实验 中 所 使 用 的 真实 用 户 操控 记录 不 
村 


时 。 因 此 ， 如 何 收集 到 更 多 可 能 影响 用 
部 环境 因素 ， 并 将 


己 录 特征 中 ， 使 得 算法 所 挖掘 到 的 用 户 操 控 习 惯 更 加 贴近 


用 广 


' 真 实情 况 ， 是 下 一 步 的 研究 内 容 。 
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